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基于 深度 学 习 的 中 文 微 博 作者 身份 识别 研究 ' 
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(中 国人 民 公安 大 学 信息 技术 与 网 络 安全 学 院 ， 北京 102623) 


摘 要 : 作者 身份 识别 一 直 在 公安 行业 和 文 检 工 作 中 起 着 重要 的 作用 。 现 有 的 作者 语言 风格 建 模 过 程 繁 珊 、 文 本 特征 
工程 没有 普 适 性 。 针 对 此 问题 ， 在 无 须 专 家 进行 特征 建 模 的 情况 下 ， 提 出 CABLSTM 中 文 微 博 作 者 身份 识别 模型 ， 并 
在 公开 微 博 语 料 集 测试 该 模型 准确 度 。 该 模型 为 最 大 化 的 提取 短文 本 特征 ， 融 合 Attention 机 制 于 CNN 中 并 去 除 池 化 
层 ， 通 过 双向 LSTM 以 获取 上 下 文 相关 信息 ， 身 份 识别 结果 通过 Softmax 层 进行 输出 。 实 验 结果 表明 ， 该 模型 在 进行 
中 文 微 博 作者 身份 识别 任务 中 与 传统 机 器 学 习 算 法 以 及 TextCNN 和 LSTM 算法 相对 比 ， 在 准确 率 、 召 回 率 、F 值 方面 
都 有 一 定 的 提升 。 
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Basics depth academic learning Chinese fumiohiro writer authorship identification research 


Xu Xiaolin, Cai Manchun, Lu Tianliang 
(School of Information Technology& Network Security, People's Public Security University of China, Beijing 102623, China) 


Abstract: Author identification has always plays an important role in the public security and literary inspection work. Texts 
feature extraction is cumbersome and not universal. To solve this problem, the CABLSTM Chinese microblog author 
identification model is proposed without expert feature modeling, and the accuracy of the model is tested in the open microblog 
corpus. This model maximizes the extraction of short text features, fuses the Attention mechanism in the CNN and removes the 
pooling layer, and obtains context-related information through the bidirectional LSTM. The identity recognition result is output 
through the Softmax layer. Experimental results show that the model has a certain improvement in accuracy, recall rate, and F 


value in comparison with traditional machine learning algorithms and TextCNN and LSTM algorithms in the identification task 


of Chinese microblog authors. 
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征 抽取 建 模 ， 以 提高 文本 作者 身份 是 别 的 准确 性 。 但 随 着 网 络 
的 急速 发 展 ， 网 络 文本 大 量 涌现 ， 邮 件 、 博 客 、 微 博 、 评 论 等 

文本 作者 身份 识别 是 文 检 言 语 分 析 中 的 类 别 ， 研 究 属于 应 等 短文 本 大 量 存在 但 长 文本 作者 身份 识别 方法 并 不 能 完全 适用 
语言 学 和 计算 机 科学 的 交叉 领域 ， 其 主要 思路 是 将 文本 中 隐 “于 短文 本 。 现 阶段 对 于 短文 本 的 研究 较 少 ， 只 有 祁 瑞 华 等 人 品 ? 
含 的 作者 无 意识 写作 习惯 通过 某 些 可 以 量化 的 特征 表现 出 来 ， 针对 微 博 短文 本 通过 词汇 、 句 子 、 依 存 关 系 、 特 殊 符号 等 多 方 
凸显 作品 的 文体 学 特征 和 写作 风格 , 以 此 确定 匿名 文本 的 作者 。 ” 面 特征 提取 进行 特征 建 模 ， 实 现 了 基于 短文 本 的 文本 作者 身份 
文 检 工作 中 的 言语 分 析 就 是 根据 文本 的 写作 风格 从 而 确定 。 识别 。 但 是 这 种 方法 并 不 能 对 所 有 的 短文 本 进行 统一 的 特征 提 
匿名 文本 作者 。 公 安 工 作 中 有 害 信息 作者 鉴定 也 可 以 基于 文本 多 ， 不 同 的 短文 本 需要 不 同 的 特征 提取 方式 ， 且 微 博 中 的 特殊 
对 嫌疑 人 员 进 行 判 断 。 文 本 作者 身份 识别 为 上 述 两 种 提供 一 定 。 符号 等 大 大 增加 了 判断 的 准确 率 ,这 在 普通 短文 本 中 并 不 具有 。 
的 分 析 支 持 。 大 量 微 博 内 容 是 少 于 140 个 字 的 ， 很 难 在 如 此 短 的 文本 中 
前 人 研究 的 文本 作者 身份 识别 ， 大 多 集中 在 长 文本 。 人 们 ”提取 文本 特征 ， 但 微 博 的 发 言 往往 是 作者 很 随 性 的 ， 更 能 代表 
从 一 元 论文 本 特征 到 多 元 论文 本 特征 再 到 多 层次 文本 特征 ,不 ”出 作者 的 语言 风格 。 现 阶段 根据 多 种 文本 特征 和 微 博 特有 特征 
断 提 高 了 对 文本 特性 的 抽取 ， 更 深 力度 更 加 抽象 地 进行 文本 特 ”的 文本 特征 提取 方法 虽然 取得 了 很 好 的 效果 ， 但 都 是 对 于 某 一 
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行文 本 
在 公开 微 博 与 语 料 上 测试 其 有 效 性 。 


Té BUB 


录用 定稿 

特定 的 短文 本 ， 并 且 无 法 避免 由 专家 学 家 进 

过 程 ， 

别 模型 ， 通 过 深度 学 习 对 短文 本 进 

专家 特征 建 模 过 程 ， 

1 ”中 文 微 博 作 者 身份 识别 模型 
深度 学 习 具 有 能 够 自主 学 习 

想 通过 深 


和 长 短 时 记忆 网 络 CLSTMO 是 深度 学 悦 


AU 
本 特征 ， 
CNN 与 Attent 
短文 本 特 和 


行人 工 特征 建 模 的 
为 此 本 文 尝试 提出 基于 深度 学 习 的 中 文 微 博 作者 身份 识 
自动 特征 提取 ， 去 掉 


E 的 特性 ， 因 此 本 文 
度 学 习 实现 文本 作者 身份 识别 。 卷 积 神经 网 络 (CNN) 


并 且 通 过 多 卷 积 


行 特征 提取 ， 能 够 有 效 获 取 
器 结合 作为 输 
CABLSTM 中 文 微 博 


ion 进行 结合 


RE o 


所 示 。 


二 


NLPIR 进 


文本 预 处 理 


微 博 语 料 


作者 身份 识别 模型 


FP 较 为 流行 的 分 类 模型 。 
经 网 络 (CNN) 有 着 类 似 于 n-gram 的 效果 ， 能够 提取 文 
层 进 行 更 加 深入 的 挖掘 ， 因 此 考虑 将 
广大 及 加 强 其 特征 提取 的 特效 作为 
提取 器 。 长 短 时 记忆 网 络 (LSTM) 是 对 时 序数 据 进 
上 下 文 信息 ， 因 出 


上 考虑 将 其 与 分 类 


的 建立 流程 如 图 1 


CNN+Attention 
特征 提取 


双向 LSTM+Softmax 
分 类 输出 


双向 LSTM 


1) 文本 预 处 理 


将 40 G 微 博 语 料 ! 
行 分 词 ， 去 售 


图 1 模型 流程 


Fig.1 Mode flowchat 


2) CNN+Attention 特征 提取 


将 句子 分 词 后 组 成 的 词 向 量 和 


添加 微 博 热 词 为 ) 


E 阵 进 


户 自 定义 词典 的 
] 词 后 输入 到 Word2VecB, 生 中产 生词 向 


行 attention 后 获得 双 通 


道 conv input (sentence word enbeddings，attention feature map ) 


作为 CNNP: 9 卷 积 


屋 的 输入 ， 卷 积 


feature sequence。 即 文本 特征 向 量 。 


3) 双向 LSTM+Softmax 分 类 输出 


后 按 位 组 合 得 到 window 


将 window feature sequence 作为 双向 LSTMU 5 的 输入 ， 得 


个 一 维 向 量 ， 通 过 concatenate 层 进 


到 两 四 
接 层 和 Softmax 进行 分 类 输出 
1.1 文本 预 处 理 


1) 微 博 爬 取 


na 


HT ££ vois] I] 
上 获得 的 40 G 微 博 数 扩 


需要 大 量 的 数 


本 文 所 需要 的 数据 分 为 两 类 ， 一 类 为 建立 词 向 量 
大 量 微 博 数据 ， 一 类 为 实验 所 需 的 以 作者 为 标签 的 分 类 微 博 。 
居 ， 所 以 本 文采 | 
E. SECUS ELEGIT python 


行 拼接 ， 最 后 通过 全 连 


需要 的 


的 是 在 CSDN 
的 request 包 和 


上 表达 式 进 行 朴 取 。 首 先 人 工 选择 符合 要 求 且 筛 选 出 发 博 量 
超过 1000 条 的 候选 人 , 进行 10 人 次 


的 数 


EH, 共 10000 条 。 
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2) 文本 分 词 


ChinaX iv 合 1 


较 流行 的 分 词 工 


首先 对 训练 语 料 进行 中 
为 Jieba、NLPIR、LTP 。 本 文选 择 进 行 微 博 


文 分 词 。 现 阶段 开放 python 接口 且 


语 料 分 词 实验 后 ; 


仁 确 率 最 高 的 NLPIR 分 词 工具 。 


3) 词 向 量 生成 


文本 分 词 结束 后 , 去 掉 售 


Tis XH 


Word2vec"llfj CBOW 


模型 进行 词 向 量 的 建立 。 输 入 层 为 单词 x 周 围 的 n-1 个 词 向 量 ， 


将 n-1 个 词 向 量 相 力 
层 的 值 需要 沿 着 Hu 


[输入 到 隐藏 层 ， 然 后 从 根 节点 开始 ， 映 身 
ffman 树 不 断 的 进行 logistic 分 类 ， 并 且 不 


断 修正 各 中 间 向 量 和 词 向 量 ， 最 后 输出 单词 x 的 词 向 量 。 


1.2 CNN+Attention 机 制 进行 文本 特征 提取 
由 于 微 博 数据 过 于 短小 ， 所 以 需要 尽 可 能 地 对 文本 进行 


抽象 和 高 级 的 特征 特征 表示 ， 才 能 够 更 行文 本 特征 建 模 。CNN 


可 以 进行 卷 积 操作 ， 


考虑 到 卷 积 的 效果 且 CNN 具有 


n-gram 特 


征 提 取 的 能 力 ， 所 以 用 CNN 能 够 更 好 地 对 微 博 短 文本 进行 文 


本 特征 提取 。 为 了 能 


a) 去 掉 CNN H 


多 更 深度 挖掘 特征 ， 对 CNN 进行 改进 。 


输出 的 向 量 维度 ， 但 同时 也 丢失 了 部 分 特征 


PÉJ Max-Pooling 层 。 虽 然 池 化 层 可 以 降低 


因此 在 进行 特征 


提取 时 将 Max-Pooling 层 去 掉 , 以 充分 发 挥 CNN 


的 效果 。 


卷 积 提取 特征 


b) 在 CNN 进行 卷 积 前 加 入 Attention 层 。 


传统 的 CNN iÑ 


过 每 个 单 通道 处 理 
入 到 分 类 器 中 。 


该 模型 在 输入 分 类 器 前 句 对 间 没 有 相互 


个 句子 ， 然 后 学 习 句子 表达 ， 最 后 一 起 输 
KZ, 


局 部 特征 


只 能 学 习 到 


F s2 构建 


attention feature map， 卷 积 层 的 输入 1 


attention 矩阵 ，sl 通过 与 


， 通 过 Attention 1 机 制 ， 将 句子 s1 与 句 
通过 与 attention 矩阵 相 乘 得 到 
单 通道 变 为 双 通 道 , 将 不 


同 cnn 通道 的 句 对 联系 起 来 ， 可 以 学 习 全 文 特征 ， 提 高 特征 提 


取 的 效果 。 


如 图 2 所 示 ， 首 先 计 算 attention 矩阵 A， 其 每 个 元 素 A, ; 
代表 句子 1 中 第 i 个 单词 对 句子 二 中 第 j 个 单词 的 match_score， 
经 验 表 明 当 match_score 为 Euclidean 距离 时 效果 很 好 为 此 ， 本 


文选 用 Euclidean 距离 


i, 


离 作 为 match score 计算 公式 为 


D (R. ER, JD) 


Errem a 


W, 和 Wi 均 为 学 习 优 化 的 的 参数 和 矩阵, 本文 使 
即 共享 两 个 矩阵 。 这 样 WwW, 和 A 的 转 


相同 的 W, 
LUE, WI A ERG 


SUD A 8) T R5 Jet 8) T 8] [8] CR EK /] IH attention feature 


map。 计 算 公 式 为 


一 个 句子 由 其 


Ra =W xA" O) 
E, = W, x A Q) 


本 身分 词 后 的 词 向 量 和 矩阵 与 其 attention 


feature map 这 两 个 通道 作为 CNN 卷 积 层 的 输入 。 选 择 固定 窗 


window feature sequence, 


掘 文本 特征 。 


口 大 小 的 filter 进行 卷 积 获得 feature maps。 由 于 需要 输入 到 
LSTM 中 ， 所 以 将 每 个 feature maps 的 对 应 位 置 进行 # 


接 构成 
且 不 连接 Pooling 层 以 最 大 化 的 挖 
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Conv input 


feature maps 


Sente 
words embedding map 
attention feature map 


图 


Y 


concatenate 


|—*| Full Connected 


F 


window feature sequence Y 


2 CABLSTM 模型 


Fig.2 CABLSTM mode 


1.3 双向 LSTM+Softmax 进行 分 类 输出 
RI] LSTM， 在 t 时 刻 的 输入 了 工 代表 的 是 t 时 刻 之 前 的 输 
息 ， 该 信息 包含 了 上 文中 的 信息 ， 但 是 并 不 包含 下 文中 的 
而 使 双向 LSTM 算法 加 入 了 反方 向 的 LSTM， 这 对 于 
刻 的 输入 了 和 了 分 别 代表 了 上 文 信息 和 下 文 信息 。 
所 以 ， 为 了 更 好 地 提取 微 博 短文 本 的 文本 特征 ， 选 择 使 用 双 
LSTM+Softmax(111 进 行 分 类 输出 。 
如 图 2 所 示 ，CNN+Attention 进行 文本 特征 提取 ; 
feature sequence 输入 到 双向 的 LSTM 中 得 到 两 个 一 维 向 


lm 


^ 


信 PH 


个 单元 t 时 


LL 


区 


4 window 


为 


= 
里 ， 


了 使 特征 更 好 地 保留 ， 不 选择 aver 而 选择 concatenate 进行 两 
个 向 量 的 拼接 ， 以 免 特 征 的 剔除 。 最 后 ， 添 加 全 连接 层 和 
Softmax 层 进 行 分 类 。 

2 ”实验 分 析 


2.1 实验 数据 来 源 

本 实验 所 选择 的 实验 数据 为 自己 爬 取 的 新 浪 微 博 为 实验 语 
料 ， 收 集 了 新 浪 微 博 10 位 公众 人 物 的 共 10 000 篇 微 博 ， 每 位 
1 000 篇 。 其 中 语 料 最 长 的 为 140 字 ， 最 短 的 为 45 字 。 采 用 十 
字 交 义 进 行 实验 ， 在 各 组 对 照 实验 中 ， 统 计 作 者 身份 识别 的 准 
m (precision), A 


率 (recall) 和 F-measure 的 平均 值 评估 
作者 身份 识别 性 能 。 


2.2 ”实验 环境 

所 有 实验 基于 Python 3.6 来 实现 ， 使 用 Alineware 机 器 ， 
CPU 为 这 、 内 存 16 GB、 系 统 为 Linux、 显 卡 为 gtx1070。 
2.8 ” 微 博 分 词 准确 率 对 比 实验 

采用 Jieba、NLPIR 和 LTP 三 种 较为 
准确 性 实验 ， 大 多 以 “人 民 日 报 分 词语 料 集 ” 作 为 实验 数据 。 
人 民 日 报 文本 十 分 严格 规范 ， 口 语 化 程度 较 低 ， 网 络 流行 语 较 
少 ， 文 本 长 度 较 长 ， 与 微 博 语 料 有 较 大 的 差别 。 为 了 更 好 地 选 
择 对 微 博 类 短文 本 分 词 准确 率 较 高 的 工具 ， 本 节 以 微 博 语 料 为 
数据 源 ， 对 三 种 分 词 工具 进行 对 照 实验 。 
因为 没有 标准 的 分 词 后 的 微 博 语料库 ， 
篇 息 虫 的 微 博 语 料 进 行人 工分 词 ， 以 “|” 为 分 割 符 。 
如 表 1 所 示 。 


pu 


H 


i 行 的 分 词 工具 进行 


所 以 人 工 对 3 000 
分 词 例 图 


Y 


Softmax 


A 


2 


表 1 分 词 例 图 
Table 1 Word segmentation example 
一 条 微 博 数据 
终极 预告 终于 和 大 家 见面 啦 ~~ 史 无 前 例 的 悉尼 歌剧 院 打 
原 句 " 
终极 | 预告 | 终于 | 和 | 大 家 | 见面 啦 | 史无前例 | 的 | 悉尼 | 歌剧 院 | 
人 工分 词 
打斗 
实验 流程 如 图 3 所 示 。 
微 情 数据 村 
Y L Y 
uto Aran Ua. 
uc d 
Y 
AIS18 
d3 ”分词 实验 流程 
Fig.3 Word segmentation experiment flowchat 
实验 分 三 组 数据 进行 比较 。 数 据 1: 人 工分 词 ， 数据 2: 
Jieba, NLPIR, LTP rid; 数据 3: 加 入 用 户 自 定 义 词典 后 的 
Jieba, NLPIR, LTP 分 词 。 用 户 自 定义 词典 由 近 五 年 微 博 热 词 、 
微 博 网 络 语 组 成 。 准 确 率 由 3 000 条 微 博 人 工分 词 对 比 结果 。 
时 间 由 100 000 条 微 博 测 试 得 出 。 
表 2 分词 工 具 实验 结果 
Table 2 Word segmentation experimental result 
是 否 添加 外 界 词 库 工具 准确 率 时 间 
Jieba 91% 149.2seconds 
未 添加 用 户 自 定 词 词 NLPIR 96% 53.5 seconds 
LTP 94% 175.7seconds 
Jieba 94% 162.4seconds 
添加 用 户 自 定义 词典 NLPIR 98% 63.2seconds 
LTP 97% 187.4seconds 
实验 结果 如 表 2 所 示 。 可 以 看 出 : a) 总 体 上 ， 三 种 算法 在 
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具 都 是 十 分 有 效 的 ; b) 从 是 否 添加 用 户 自 定义 词典 来 看 , 添加 征 组 成 。 实 验 结果 如 表 3 所 示 。 可 以 看 出 : a) 总 体 上 ， 五 种 算 
用 户 自 定义 词典 后 三 种 分 词 算法 的 准确 率 都 有 了 一 定 的 提高 ; 法 在 中 文 微 博 作 者 身份 识别 任务 上 准确 率 、 召 回 率 和 了 -measure 
) 从 算法 性 能 来 看 , NLPIR 中 国 科学 院 的 分 词 工具 无 论 是 否 添 HABT 70% 以 上 ， 每 位 作者 的 准确 率 、 召 回 率 和 F-measure 
用 户 自 定义 词典 都 是 分 词 准 确 率 最 高 的 ， 加 入 用 户 自 定 义 词 ”都 达到 了 69% 以 上 ; b) 从 算法 性 能 来 看 ，TextCNN 和 LSTM 
后 准确 率 可 高 达 98%;d) 从 时 间 来 看 , 三 种 分 词 工 具 中 NLPIR ”在 准确 率 、 召 回 率 和 F-measure 方面 和 人 工 特征 建 模 的 传统 机 
中 国 科学 院 分 词 工具 的 时 间 最 短 ， 时 间 约 只 有 其 他 两 种 算法 三 ”器 学 习 SVM 和 C4.5 相差 不 大 。 改进 后 的 CABLSTM 模型 在 准 
分 之 一 。 因 此 ， 从 准确 率 和 时 间 消 耗 来 分 析 ，NLPIR FEHR MR HEA F-measure 方面 相对 另外 四 种 算法 都 有 一 定 程 
院 分 词 工 具 在 加 入 用 户 自 定义 词典 后 有 着 最 高 的 分 词 准确 率 和 度 的 提高 。 具 体 来 说 本 文 模型 可 以 更 加 深 力度 的 挖掘 短文 的 文 
最 低 的 时 间 消 耗 ， 在 实验 进行 词 向 量 建 立时 能 够 更 好 地 完成 任 ”本 特征 ， 为 分 类 提供 更 好 的 特征 模型 。 利 用 CNN 加 Attention 
务 ， 且 具有 更 好 的 分 词 准 确 率 ， 可 以 使 模型 的 效果 得 到 一 定 的 机 制 能 够 提高 深度 学 习 对 文本 的 学 习 提 取 力 度 ; 利用 双向 


e 


tk 


提升 。 LSTM 加 Softmax 能 够 更 好 地 学 习 特 征 并 进行 分 类 。 
2.4 中 文 微 博 作者 身份 识别 算法 对 比 实验 CABLSTM 算法 在 完成 中 文 微 博 作 者 身份 识别 任务 中 ， 与 


为 了 验证 CABLSTM 模型 在 中 文 微 博 作 者 身份 识别 算法 ， 传统 的 机 器 学 习 算 法 SVM 和 C4.5 算法 相 比 较 而 言 ， 去 掉 了 以 

本 文采 用 作者 身份 识别 中 常用 的 准确 率 (P)、 召 回 率 (R) 和 F- ”词汇 频率 特征 、 标 点 数量 特征 、 功 能 词 次 数 特征 、 词 性 标注 特 
measure 值 作为 指标 来 测量 其 有 效 性 及 优越 性 。 通 过 Fl dH. 能 。” 征 为 特征 集 的 文本 特征 建 模 过 程 ， 在 提高 准确 率 的 同时 减少 了 

v — 够 结合 准确 率 及 召回 率 更 加 客观 地 反映 出 该 模型 的 综合 水 平 。 人 工 的 参与 ， 提 高 了 效率 ， 降 低 了 人 工 特 征 建 模 的 难度 ; 与 


| 首先 验证 CABLSTM 模型 在 中 文 微 博 作者 身份 识别 中 的 有 TextCNN 和 LSTM 相 比 ,在 准确 率 、 召 回 率 和 下 值得 到 了 一 定 
O) 效 性 , 采用 SVM, 决策 树 C4.5、TextCNN、LSTM 和 CABLSTM 的 提高 。 所 以 CABLSTM 模型 可 以 更 好 地 应 用 于 中 文 微 博 作者 
O 五 种 算法 。 在 SVM 和 决策 树 C4.5 算法 中 ， 中 文 微 博 特 征集 身份 识别 ， 为 公安 行业 有 害 信 息 作者 识别 和 文 检 工作 提供 一 定 
e 词汇 频率 特征 、 标 点 数量 特征 、 功 能 词 次 数 特征 、 词 性 标注 特 ”的 理论 支持 和 技术 支持 。 


表 3 实验 结果 


Table3 Experimental result 


算法 作者 1 作者 2 作者 3 作者 4 作者 5 作者 6 作者 7 作者 8 作者 9 作者 10 加 权 平均 
P 0.71 0.75 0.72 0.74 0.8 0.69 0.72 0.73 0.75 0.79 0.74 
SVM R 0.77 0.7 0.71 0.7 0.75 0.82 0.63 0.87 0.82 0.7 0.747 
F 0.74 0.79 0.71 0.71 0.77 0.75 0.67 0.79 0.78 0.74 0.745 
P 0.8 0.79 0.82 0.84 0.79 0.83 0.85 0.77 0.75 0.8 0.804 
C4.5 R 0.8 0.81 0.8 0.82 0.81 0.8 0.75 0.77 0.79 0.78 0.793 
F 0.8 0.79 0.81 0.83 0.79 0.81 0.79 0.77 0.76 0.79 0.794 
P 1 0.95 0.82 0.74 0.89 0.7 0.95 0.99 0.82 0.57 0.843 
TextCNN R 0.99 0.91 0.92 0.41 0.79 0.81 0.9 0.98 0.92 0.75 0.838 
F 0.99 0.93 0.87 0.52 0.83 0.76 0.93 0.99 0.87 0.65 0.834 
P 0.99 0.73 0.66 0.49 0.87 0.69 0.94 0.98 0.46 0.47 0.728 
LSTM R 0.97 0.87 0.63 0.44 0.71 0.82 0.79 0.93 0.96 0.72 0.784 
F 0.98 0.79 0.65 0.47 0.78 0.75 0.86 0.96 0.62 0.57 0.743 
P 1.0 0.92 0.97 0.87 0.94 0.94 1.0 1.0 1.0 0.82 0.964 
CABLSTM R 0.99 0.98 0. 97 0.71 0.94 0.92 0.98 0.99 0.98 0.89 0.935 
F 0.99 0.95 0.97 0.78 0.94 0.93 0.99 0.99 0.99 0.88 0.941 


作者 身份 识别 ， 去 掉 了 文本 作者 身份 识别 中 必须 人 工 特征 建 模 
的 过 程 ， 减 少 了 人 工 投 入 ， 提 高 了 效率 。 这 样 在 公安 行业 用 
本 文 拓展 了 作者 身份 识别 研究 的 理论 框架 和 应 用 范围 ， 考 。 有 重点 人 群 和 其 发 表 言 论 库 时 ， 可 以 使 用 该 模型 对 无 法 判别 作 
虑 传统 长 文本 和 网 络 短文 本 在 文本 特征 提取 上 的 差异 ， 研 究 前 ” 者 的 有 害 言论 进行 一 定 的 分 析 ， 从 而 为 公安 行业 和 文 检 行 业 的 
人 对 于 短文 本 特征 建 模 的 改进 。 针 对 现 阶段 中 文 微 博 作 者 身份 。 ”作者 识别 提供 一 定 的 理论 和 技术 支持 。 步 的 研究 计划 是 下 
识别 必须 人 工 进行 文本 特征 建 模 的 现状 ， 本 文 提出 了 基于 深度 ” 究 如 何在 作者 数量 较 多 的 中 文 微 博 语 料 上 提高 中 文 微 博 作 者 身 
学 习 算 法 的 CABLSTM 模型 进行 微 博文 本 特征 提取 并 进行 文本 份 识别 的 准确 率 。 
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